OpenAIのSpeech To Text API
from Whisper
docs
api reference
Introducing ChatGPT and Whisper APIs
1分$0.006ぐらい
2023/04/20現在
promptも渡せる
timestamp_granularities
docs
timestampの粒度を指定できる
segment
1つの文章、ぐらいの粒度
word
めっちゃ細かく細分される
prompt
docs
リクエスト時にpromptを指定できる
ただし244tokenのみ
表記揺れの訂正をしたり
分割されたファイルの文脈を保持するために使ったり
フィラーがデフォルトで省略されるが、敢えてそれを残したり
1回の上限は25MB ref
圧縮するか、分割するかの対策が必要
PyDubというのが使えるらしい
https://github.com/jiaaro/pydub